Attention is All You need
Transformerを提案し機械翻訳のSOTAを達成
RNN/CNNを使わず翻訳のSOTAを達成した話。Attentionを基礎とした伝搬が肝となっている。単語/位置のlookupから入力を作成、Encoderは入力+前回出力からAを作成しその後位置ごとに伝搬、DecoderはEncoder出力+前回出力から同様に処理し出力している
タイトルはAttention推しだが、個人的には位置をベクトル化するPositional Encodingと位置ごとの伝搬をするPosition-wise Feed-Forward Networksのほうがインパクトが大きいと思った。
Attention Is All You Need · Issue #329 · arXivTimes/arXivTimes
実装・解説へのリンク多数
Attention Is All You Need
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
Submitted on 12 Jun 2017 (v1), last revised 6 Dec 2017 (this version, v5)
Google Brain
Google Research
University of Tronto
https://arxiv.org/abs/1706.03762